如何使用xpath＆lxml获取节点的全部内容？-howtogetthefullcontentsofanodeusingxpath&lxml?

作者：lifetime8_797 | 来源：互联网 | 2023-05-17 22:45

Iamusinglxmlsxpathfunctiontoretrievepartsofawebpage.Iamtryingtogetcontentsofa&l

I am using lxml's xpath function to retrieve parts of a webpage. I am trying to get contents of a tag, which includes html tags of its own. If I use

我正在使用lxml的xpath函数来检索网页的各个部分。我试图获取标签的内容,其中包含自己的html标签。如果我使用

//td[@valign="top"]/p[1]/font[@face="verdana" and @color="#ffffff" and @size="2"]

I get the right amount of nodes, but they are returned as lxml objects ().

我获得了正确数量的节点,但它们作为lxml对象返回( <元素字体位于0x101fe5eb0> )。

If I use

如果我使用

//td[@valign="top"]/p[1]/font[@face="verdana" and @color="#ffffff" and @size="2"]/text()

I get exactly what I want, except that I don't get any of the HTML code which is contained within the nodes.

我得到了我想要的,除了我没有得到节点中包含的任何HTML代码。

If I use

如果我使用

//td[@valign="top"]/p[1]/font[@face="verdana" and @color="#ffffff" and @size="2"]/node()

if get a mixture of text and lxml elements! (e.g. something something something)

如果得到文本和lxml元素的混合! (例如某事 <元素a在0x102ac2140> 某事)

Is there anyway to use a pure XPath query to get the contents of the nodes, or even to force lxml to return a string of the contents from the .xpath() method, rather than an lxml object?

无论如何使用纯XPath查询来获取节点的内容,甚至强制lxml从.xpath()方法返回内容的字符串,而不是lxml对象?

Note that I'm returning a list of many nodes from the XPath query so the solution needs to support that.

请注意,我正在从XPath查询返回许多节点的列表,因此解决方案需要支持该节点。

just to clarify... i want to return something something inside something from something like...

只是为了澄清...我想要回复一些东西里面的东西......

inside something

2 个解决方案

#1

I'm not sure I understand -- is this close to what you are looking for?

我不确定我理解 - 这是否接近你想要的?

import lxml.etree as le
import cStringIO
cOntent='''\
inside something
'''
doc=le.parse(cStringIO.StringIO(content))

xpath='//font[@face="verdana" and @color="#ffffff" and @size="2"]/child::*'
x=doc.xpath(xpath)
print(map(le.tostring,x))
# ['inside something']

#2

Is there anyway to use a pure XPath query to get the contents of the nodes, or even to force lxml to return a string of the contents from the .xpath() method, rather than an lxml object?

无论如何使用纯XPath查询来获取节点的内容,甚至强制lxml从.xpath()方法返回内容的字符串,而不是lxml对象?

Note that I'm returning a list of many nodes from the XPath query so the solution needs to support that.

请注意,我正在从XPath查询返回许多节点的列表,因此解决方案需要支持该节点。

just to clarify... i want to return something something inside something from something like...

只是为了澄清...我想要回复一些东西里面的东西......

href="url">inside something

 
Short answer: No. 
简答:没有。 
XPath doesn't work on "tags" but with nodes 
XPath不适用于“标签”,但适用于节点 
The selected nodes are represented as instances of specific objects in the language that is hosting XPath. 
所选节点表示为托管XPath的语言中的特定对象的实例。 
In case you need the string representation of a particular node's markup, such objects typically support an outerXML property -- check the documentation of the hosting language (lxml in this case). 
如果您需要特定节点标记的字符串表示,此类对象通常支持outerXML属性 - 请检查托管语言的文档(在本例中为lxml)。 
As @Robert-Rossney pointed out in his comment: lxml's tostring() method is equivalent to other environments' outerXml property. 
正如@ Robert-Rossney在他的评论中指出的那样:lxml的tostring()方法等同于其他环境的outerXml属性。




    
        
                        html
                        python
                        xml
                        get
                        function
                        web
                        include
                        tags
                        object
                    
    



    
        写下你的评论吧 !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
                                    
                
            
        

        
    

    
        推荐阅读
        
            
                                
                    
                        match
                        Android开发实现的计时器功能示例
                    

                    
                                                
                            
                        
                                                
                        本文分享了Android开发实现的计时器功能示例，包括效果图、布局和按钮的使用。通过使用Chronometer控件，可以实现计时器功能。该示例适用于Android平台，供开发者参考。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 22:51:19
                    

                

                
                                
                    
                        string
                        Spring源码解密之默认标签的解析方式分析
                    

                    
                                                
                            
                        
                                                
                        本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断，区分默认命名空间和自定义命名空间，并采用不同的解析方式。其中，bean标签的解析最为复杂和重要。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 17:24:50
                    

                

                                
                    
                    
                
                
                                
                    
                        string
                        Spring 3.1：数据源未自动连接到@Configuration类的错误原因及解决方法
                    

                    
                                                
                        本文讨论了在Spring 3.1中，数据源未能自动连接到@Configuration类的错误原因，并提供了解决方法。作者发现了错误的原因，并在代码中手动定义了PersistenceAnnotationBeanPostProcessor。作者删除了该定义后，问题得到解决。此外，作者还指出了默认的PersistenceAnnotationBeanPostProcessor的注册方式，并提供了自定义该bean定义的方法。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 03:54:26
                    

                

                
                                
                    
                        string
                        python创建一个窗口_等一个大佬啊 要求用python创建一个窗口，窗口按钮功能是创建一个球体或立方体。明天上课之前交给我...
                    

                    
                                                
                        展开全部下面的代码是创建一个立方体Thisexamplescreatesanddisplaysasimplebox.#Thefirstlineloadstheinit_disp ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 16:26:09
                    

                

                
                                
                    
                        dll
                        windows下dll加载失败排错
                    

                    
                                                
                        在加载一个第三方厂商的dll文件时，提示“找不到指定模块，加载失败”。由于缺乏必要的技术支持，百思不得期间。后来发现一个有用的工具 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-17 23:00:57
                    

                

                
                                
                    
                        buffer
                        传统标签概括以及返回值详细说明
                    

                    
                                                
                        Tag类：EVAL_BODY_INCLUDE在doStartTag中返回表示执行标签体的内容SKIP_BODY在doStartTag方法中返回表示不执行标签体EVAL ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-15 20:40:16
                    

                

                
                                
                    
                        command
                        Linux重启网络命令实例及关机和重启示例教程
                    

                    
                                                
                            
                        
                                                
                        本文介绍了Linux系统中重启网络命令的实例，以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法，以及使用shutdown命令进行系统关机和重启的句法和用法。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 15:52:52
                    

                

                
                                
                    
                        command
                        scrapy存入excel时，excel文件被反复擦除重写。文件大小始终不超过100k，请问这种情况改如何解决
                    

                    
                                                
                        怀疑是每次都在新建文件，具体代码如下 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 17:53:49
                    

                

                
                                
                    
                        int
                        拥抱Android Design Support Library新变化（导航视图、悬浮ActionBar）
                    

                    
                                                
                            
                        
                                                
                        转载请注明明桑AndroidAndroid5.0Loollipop作为Android最重要的版本之一，为我们带来了全新的界面风格和设计语言。看起来很受欢迎࿰ ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 16:11:00
                    

                

                
                                
                    
                        grid
                        不同优化算法的比较分析及实验验证
                    

                    
                                                
                            
                        
                                                
                        本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 16:05:14
                    

                

                
                                
                    
                        string
                        在重复造轮子的情况下用ProxyServlet反向代理来减少工作量
                    

                    
                                                
                            
                        
                                                
                        像不少公司内部不同团队都会自己研发自己工具产品，当各个产品逐渐成熟，到达了一定的发展瓶颈，同时每个产品都有着自己的入口，用户 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 15:19:01
                    

                

                
                                
                    
                        command
                        利用Visual Basic开发SAP接口程序初探的方法与原理
                    

                    
                                                
                            
                        
                                                
                        本文介绍了利用Visual Basic开发SAP接口程序的方法与原理，以及SAP R/3系统的特点和二次开发平台ABAP的使用。通过程序接口自动读取SAP R/3的数据表或视图，在外部进行处理和利用水晶报表等工具生成符合中国人习惯的报表样式。具体介绍了RFC调用的原理和模型，并强调本文主要不讨论SAP R/3函数的开发，而是针对使用SAP的公司的非ABAP开发人员提供了初步的接口程序开发指导。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 10:56:31
                    

                

                
                                
                    
                        split
                        Html5-Canvas实现简易的抽奖转盘效果
                    

                    
                                                
                            
                        
                                                
                        本文介绍了如何使用Html5和Canvas标签来实现简易的抽奖转盘效果，同时使用了jQueryRotate.js旋转插件。文章中给出了主要的html和css代码，并展示了实现的基本效果。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 06:02:20
                    

                

                
                                
                    
                        int
                        【openwrt】设备mt7628关于wan侧eth0.1 mac地址固定的问题
                    

                    
                                                
                        本文讨论了在openwrt-17.01版本中，mt7628设备上初始化启动时eth0的mac地址总是随机生成的问题。每次随机生成的eth0的mac地址都会写到/sys/class/net/eth0/address目录下，而openwrt-17.01原版的SDK会根据随机生成的eth0的mac地址再生成eth0.1、eth0.2等，生成后的mac地址会保存在/etc/config/network下。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 17:47:48
                    

                

                
                                
                    
                        int
                        不要使用的HTML标签(WEB标准网页布局)
                    

                    
                                                
                        　　CSS网页布局中不推荐使用的HTML标签，请尽量不要使用这些HTML标签。　　Donotusethesehtmlelementsinhtmlpages.　　Presentationalelementsshouldnotbeused ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-10-17 15:33:55

















    

    
        
            
            
                
                
            

            
                lifetime8_797            

            
                这个家伙很懒，什么也没留下！            


        
    

    
    

    
    

    
        Tags | 热门标签
        
            
                                
                    c语言
                
                                
                    express
                
                                
                    actionscrip
                
                                
                    int
                
                                
                    audio
                
                                
                    heatmap
                
                                
                    uri
                
                                
                    string
                
                                
                    php
                
                                
                    foreach
                
                                
                    buffer
                
                                
                    callback
                
                                
                    merge
                
                                
                    match
                
                                
                    yaml
                
                                
                    char
                
                                
                    input
                
                                
                    vba
                
                                
                    byte
                
                                
                    javascript
                
                                
                    uml
                
                                
                    grid
                
                                
                    bitmap
                
                                
                    command
                
                                
                    frameworks
                
                                
                    export
                
                                
                    php8
                
                                
                    split
                
                                
                    dll
                
                                
                    triggers
                
                                
            
        
    

    
    
        
            
            
        
        RankList | 热门文章
        
            
                                
                    1用samba实现fedora 15与windows局域网文件共享
                
                                
                    2Fedora 15 安装 VMware 7.1.4 提示 需要Kernel Headers 简单解决方法
                
                                
                    3在Fedora中挂载Windows分区
                
                                
                    4如何在ubuntu挂载移动硬盘？
                
                                
                    5进程间通信(IPC)学习 - Change
                
                                
                    6请教大哥哥们
                
                                
                    7好工具 explore2fs
                
                                
                    8Linux修复记
                
                                
                    9在Grub引导的Linux下使用MaxDos V6.0
                
                                
                    10移植蓝牙协议栈及其工具到嵌入式ARM Linux下
                
                                
                    11Linux Fedora Code N图形与字符切换
                
                                
                    12vsftd介绍 - Enthusiasm &nbsp;   10年
                
                                
                    13想装LINUX，请大家帮助给个建议
                
                                
                    14经典的Fedora桌面壁纸
                
                                
                    15Fedora下 DirectFB 开发手记